智能论文笔记

Hierarchical Multiple-Instance Data Classification with Costly Features

Jaromír Janisch , Tomáš Pevný , Viliam Lisý

分类：机器学习 | 人工智能 | (统计)机器学习

2019-11-20

我们通过使用提供各种信息的远程服务对恶意Web域进行分类的现实问题来激励我们的研究。至关重要的是，可以将其中的某些信息进一步分为一定深度，并且此过程顺序创建了层次结构化的多种现实数据树。发送到远程服务的每个请求都与成本（例如，时间或其他请求的其他费用）相关联，目的是最大程度地提高准确性，并以预算约束。我们提出了一个通用框架，能够处理一系列类似问题。我们的方法基于具有昂贵的特征（CWCF），分层多样性学习（HMIL）和动作空间的层次分解的分类。它与描述为各种特征的部分特征（类似于JSON/XML文件）的样本一起使用，该树可以用复杂的结构对数据进行建模。该过程被建模为马尔可夫决策过程（MDP），其中一个状态代表获得的功能，而动作选择但未知的功能。该政策经过深入的强化学习培训，我们通过现实世界和合成数据来演示我们的方法。

translated by 谷歌翻译